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转换 为 结构 化 的 数据 ， 从 而 帮助 人 们 更 快速 地 获取 其 中 重要 更 好 的 融合 ， 去 提高 分 类 效果 ， 是 本 文 的 研究 


基于 又 层 循环 神经 网 络 的 语义 关系 分 类 模型 “ 


AGE 2, BREE, Beam, Th E, 王丽娟 : 
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摘 要 : 基于 循环 神经 网 络 结合 句法 结构 的 方法 被 广泛 运用 于 关系 分 类 ， 利 用 神经 网 络 对 输入 的 编码 信息 自动 获取 特 
征 并 实现 关系 分 类 ; 然而 ,目前 已 有 的 方法 主要 是 基于 单一 特定 句法 结构 的 模型 ， 而 特定 句法 结构 的 模型 不 能 够 迁移 
到 其 他 句法 结构 类 型 上 。 针 对 该 问题 ， 提 出 一 种 融合 多 句法 结构 的 登 层 循环 神经 网 络 模型 。 该 司 层 循环 神经 网 络 分 为 
两 层 进行 网 络 构建 ， 首 先 在 序列 层 进行 实体 预 训练 ， 通 过 Bi-LSTM-CRF 融合 Attention 机 制 ， 提 高 模型 对 文本 序列 上 
实体 信息 的 关注 度 , 从 而 获取 更 加 准确 的 实体 特征 信息 , 促进 关系 层 阶段 更 好 地 分 类 ; 其 次 在 关系 层 , 将 Bi-Tree-LSTM 
谋 套 在 序列 层 之 上 ， 并 将 序列 层 的 隐 状 态 与 实体 特征 信息 传 入 关系 层 ， 利 用 共享 参数 对 三 种 不 同 的 句法 结构 进行 加 权 
学 习 ， 通 过 端 到 端的 模型 训练 并 实现 语义 关系 分 类 。 实 验 结果 表明 ， 该 模型 在 SemEval-2010 Task8 语料库 上 的 marco- 
Fl 值 达 到 了 85.9%， 并 进一步 地 提升 了 模型 的 鲁 棒 性 。 

关键 词 ， 登 层 循环 神 经 网 络 ; 多 句法 结构 ; Bi-Tree-LSTM; 注意 力 机 制 ; 关系 分 类 
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Sematic relation classification model via hierarchical recurrent neural network 


Hao Zhifeng!*, Chen Peihui!, Cai Ruichu!, Wen Wen!, Wang Lijuan! 
(1. Faculty of Computer, Guandong, University of Technology, Guangzhou 510006, China; 2. School of Mathematics & Big 
Data, Foshan University, Foshan Guangdong 528000, China) 


Abstract: The method based on recurrent neural network combined with syntactic structure is widely used in relation 
classification, and the neural network is used to automatically acquire features and realize relation classification. However, the 
existing methods are mainly based on a single specific syntactic structure model, and the model of a specific syntactic structure 
cannot be transferred to other types of syntactic structures. Aiming at this problem, a hierarchical recurrent neural network model 
with multi-syntactic structure is proposed. The hierarchical recurrent neural network is divided into two layers for network 
construction. Firstly, entity pre-training is performed in the sequence layer. The Bi-LSTM-CRF fusion Attention mechanism is 
used to improve the model's attention to the entity information on the text sequence, thereby obtaining more accurate. The more 
accurate entity feature information promotes better classification in the relation layer stage. Secondly, in the relation layer, the 
Bi-Tree-LSTM is nested above the sequence layer, and the hidden state and entity feature information of the sequence layer is 
passed into the relation layer, then three different syntax structures are weighted learned using the shared parameters and classify 
the semantic relation finally. The experimental results show that the model has a marco-F1 value of 85.9% on the SemEval-2010 
Task8 corpus, and further improves the robustness of the model. 
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的 信息 。 关 系 分 类 中 作为 其 中 使 用 最 广泛 的 技术 之 一 ， 越 来 越 
多 的 受到 了 研究 界 的 关注 。 而 关系 分 类 主要 涉及 到 文本 序 负 


引言 


为 了 应 对 互联 网 产生 的 海 


Im} 


Mm 
Zt 


方向 为 自然 语言 处 理 、 机 器 学 习 ; Bin, A, BR, ELARAAQA 


I 和 


的 非 结构 化 文本 数据 ， 通 常 将 。 ”句法 依赖 两 类 重要 的 信息 ， 如 何 引 入 结构 化 知识 ， 将 两 者 进行 
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近年 来 ， 随 着 深度 学 习 的 高 速 发 展 ， 关 系 分 类 的 做 法 正在 
传统 的 基于 构造 特征 工程 4 和 构造 核 函数 14 的 方法 ， 逐 渐 
过 渡 到 直接 使 用 深层 神经 网 络 对 输入 的 编码 信息 进行 学 习 并 实 
岗 分 类 。 其 中 ， 代 表 性 的 工作 包括 基于 循环 神经 网 络 


a) 基 于 特征 的 方法 。 通 过 抽取 大 量 语言 学 特征 ， 包 括 语义 
和 语法 ， 将 其 进行 组 合 形成 特征 向 量 集 ， 利 用 分 类 器 (如 最 大 


(recurrent/recursive neural network) 和 卷 积 神经 网 络 


(convolutional neural networlg) 的 方法 ，1 


而 基于 RNN 的 模型 在 结 


构 上 更 适应 文本 问题 ， 它 能 够 直接 地 表示 语言 结构 ， 如 文本 序 


列 和 句法 依赖 树 结构 。 


在 关系 分 类 过 程 中 ， 主 要 包括 两 阶段 的 任务 ， 分 别 是 命名 


实体 识别 和 语义 关系 分 类 ， 对 应 的 主流 方法 分 别 是 基于 序列 标 


注 Ei 的 方法 和 基于 句法 结构 [2 的 方法 。 在 进行 第 二 阶段 的 


任务 时 ， 目 前 主要 基于 单一 特定 的 句法 


结构 ， 这 类 模型 存在 一 


定 的 局 限 性 ， 只 能 够 处 理 特 定 的 句法 结构 ， 不 能 够 很 好 地 迁移 
到 其 他 句法 结构 上 。 比 如 ， 对 于 序列 “A thief who tried to steal 
the truck broke the ignition with screwdriver.”， 其 最 短路 径 结构 


(SDP) 包 含 了 实体 对 “thief”“ignition” 


RI “broke”; 对 于 同样 的 序列 ,其 子 树 结 构 (SubTree) 不 仅 包含 


以 及 实体 对 之 间 的 谓语 


PREA SVM) 进行 分 类 PE。 该 方法 在 处 理 特定 领域 时 效果 
较 好 ， 但 在 特征 集 的 选择 和 设计 上 依赖 于 专家 知识 ， 需 要 花费 
的 时 间 成 本 较 大 。 
b) 基 于 核 的 方法 。 该 方法 通过 计算 两 个 对 象 在 高 维 稀疏 空 
间 上 的 内 积 以 获取 结构 化 特征 。 Zelenko 等 人 喇 通 过 设计 树 核 函 
数 进行 浅 层 的 句法 分 析 以 获取 结构 共性 ;Culotta 等 人 [扩展 了 
Zelenko 的 工作 , 将 树 核 函 数 扩展 到 了 依存 关系 树 上 , 并 结合 
语法 分 析 信 息 ; Bunescu 等 人 将 句法 最 短路 径 与 核 函 数 进行 融 
合 ， 探 索 在 不 同 句 法 结构 上 的 分 类 效果 ; Zhang 等 人 05 利 用 卷 
积 树 核 探索 句法 特征 在 关系 分 类 上 的 作用 ; Zhou 等 人 19 在 文献 
[15] 的 基础 上 添加 了 文本 内 容 信 息 。 该 类 方法 在 核 函 数 的 选择 
上 需要 技巧 性 ， 大 数据 量 时 训练 速度 慢 ， 同 时 分 类 性 能 依赖 于 
NLP 工具 ， 而 文本 预 处 理 的 错误 结果 会 影响 分 类 器 性 能 。 
co) 基于 神经 网 络 的 方法 。 该 方法 的 优势 在 于 对 输入 的 编码 


了 SDP, 同时 包含 了 其 他 成 分 信息 如 定语 “A”, 修饰 成 分 “with 
screwdriver” 等 。 因 此 ，SDP 的 网 络 模 型 对 于 SubTree 结构 会 
存在 信息 丢失 的 问题 ， 模 型 上 不 能 够 直接 进行 迁移 。 

因此 ， 本 文 提 出 一 种 融合 多 句法 结构 的 钱 层 循环 神经 网 络 
模型 。a) 在 序列 层 进行 实体 预 训练 ， 利 用 Bi-LSTM-CRF 融合 


attention 机 制 提高 模型 对 实体 信息 的 关注 度 ， 更 加 准确 地 获取 


实体 标签 信息 ; b) 在 关系 层 , 利用 Bi-Tree-LSTM 接收 序列 层 输 
出 和 依赖 标签 的 融合 特征 作为 新 的 输入 ， 对 三 种 不 同 的 句法 结 


信息 进行 自我 学 习 ， 无 须 手 动 构建 特征 ， 同 时 丰富 的 编码 信息 
克服 了 传统 方法 的 稀疏 问题 .在 RNN 结合 句法 结构 的 方法 上 ， 
Socher 等 人 (7 基于 递归 和 矩阵 -矢量 的 方式 获取 语句 在 组 成 角度 
上 的 语义 ; Xu 等 人 0 和 Liu 等 人 09 证 明了 句法 最 短路 径 对 于 
神经 网 络 模型 获取 语义 关系 是 有 帮助 的 ; Li 等 人 PY 讨论 了 不 同 
的 句法 树 结构 在 神经 网 络 模型 中 的 分 类 效果 ; Miwa EAPN 
出 了 Bi-Tree-LSTM, 并 同时 考虑 了 不 同 句法 结构 类 型 及 其 孩子 


aa 


构 进 行 加 权 学 习 ， 利 用 后 向 传播 对 共享 参 


进行 更 新 ， 最 终 通 


过 softmax 分 类 器 输出 语义 关系 类 别 。 


节点 的 数量 关系 ; Zhou 等 人 0 直接 在 Bi-LSTM ERE T — J 
attention， 增 强 了 编码 后 的 权重 信息 ; Xiao 等 人 [23 将 长 句子 进 
ITUR, HAWEA RNN 网 络 结合 attention 对 不 同 层 的 信 


考虑 到 两 阶段 任务 之 间 


的 交互 是 密切 的 ， 通 过 构造 端 到 端的 模型 ， 能 够 互相 促进 和 提 


升 完整 模型 的 效果 。 


本 文 研究 的 意义 在 于 ， 提 出 了 一 种 融合 多 句法 结构 的 网 络 


模型 ， 并 且 对 两 个 任务 构造 著 层 的 端 


进行 编码 ; Zhang 等 人 [3 提出 RNN 结合 CNN 的 改进 方法 ， 

CNN 接 在 双向 LSTM 上 ， 对 经 过 attention 的 权重 卷 积 后 进 
全 连接 输入 分 类 器 。 而 随 着 增强 学 习 和 对 抗 网 络 的 提出 ， 也 有 
一 些 相关 的 研究 成 果 , Feng 等 人 的 提出 了 一 种 利用 增强 学 习 处 


D ğ 证 


1 端 网 络 ， 能 够 更 好 的 适 


应 不 同 的 句法 结构 ， 提 高 了 关系 分 类 的 精度 和 稳定 性 。 针 对 不 


同 层 次 的 网 络 ， 其 贡献 在 于 : a) 在 序列 层 的 实体 预 训练 阶段 ， 


考虑 了 输入 与 输出 间 的 相关 性 ， 结 合 word-level attention 机 制 
能 够 有 效 提 升 模型 对 文本 序列 上 实体 信息 的 关注 度 ， 这 对 于 关 
系 分 类 起 到 了 促进 作用 ; b) ERREN, 将 多 种 句法 结构 进行 
融合 ， 使 得 模型 能 够 在 同一 个 框架 中 处 理 不 同 的 句法 结构 进行 


有 效 的 分 类 ， 提 升 了 模型 的 鲁 棒 性 ;， 同 时， 验证 了 不 同 的 句法 


结构 对 于 关系 分 类 的 贡献 度 。 


1 ”研究 现状 


关系 分 类 本 质 上 是 一 个 分 类 问题 ， 


一 个 句子 中 存在 的 实体 对 ， 然 后 利用 分 类 器 决定 哪些 成 分 是 真 


通常 的 做 法 是 先 识别 出 


正 需要 的 关系 。 早 期 的 关系 分 类 问题 通过 借助 知识 库 04 来 解决 


于 构建 知识 库 的 代价 成 本 过 大 ， 因 上 
学 习 。 当 前 的 研究 可 以 分 为 如 下 三 类 : 


将 研究 方向 转向 了 机 器 


里 噪声 数据 的 关系 分 类 方法 ，Liu 等 人 PR5 提 出 了 一 种 关系 分 类 
的 对 抗 训练 框架 。 
相 比较 其 他 两 类 传统 方法 ， 基 于 神经 网 络 的 方法 优势 在 于 
网 络 能 自主 学 习 获 取 特 征 ， 无 须 人 工 定义 特征 ， 且 分 类 效果 
前 达到 最 优 。 相 对 于 CNN， 基 于 RNN 网 络 的 模型 ， 能 够 更 好 
的 处 理 文本 序列 和 句法 结构 。 但 当前 结合 句法 结构 进行 关系 分 
类 的 模型 ， 存 在 句法 结构 单一 的 问题 ， 无 法 将 特定 句法 结构 的 
模型 迁移 到 其 他 不 同 的 句法 结构 上 。 因 此 ， 本 文 提出 了 一 种 融 
合 多 句法 结构 的 登 层 循环 神经 网 络 模型 ， 分 别 利用 Bi-LSTM- 
CRF( 融 合 Attention 机 制 ) 和 Bi-Tree-LSTM 对 文本 序列 和 多 种 
不 同 的 句法 结构 进行 学 习 ， 通 过 共享 参数 进行 端 到 端的 训练 ， 
最 终 输 出 语义 关系 类 别 。 


2 ”基于 H-RNN 的 关系 分 类 框架 


本 文 的 关系 分 类 框架 主要 包括 四 部 分 ， 分 别 是 输入 序列 、 
实体 预 训练 、 多 句法 融合 的 结构 和 输出 语义 关系 。 框 架 主 体 部 


m 
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AR EME, 


分 在 于 序列 层 和 关系 层 上 ， 基 于 双向 循环 神经 网 络 来 表示 文本 


序列 与 句法 结构 ， 并 将 关系 层 据 


套 于 序列 层 之 上 ， 构 成 端 到 端 


的 模型 ， 模 型 框架 如 图 1 所 示 。 


更 具体 的 是 ， 在 序列 层 ， 输 入 


的 文本 序列 经 过 Bi-LSTM 进 
Attention 获取 每 个 字 在 句子 中 


的 权重 , 最 后 利 
双向 解码 ， 在 关系 层 ， 将 依赖 标签 与 序列 层 的 输出 进行 
作为 此 阶段 的 输入 ， 经 过 Bi-Tree-LSTM 对 多 种 句法 结构 进行 


通过 word-level 的 
| CRF 对 其 进行 
He, 


行 编码 ， 


加 权 学 习 ， 获 取 实 体 对 的 候选 关系 ， 最 后 通过 softmax 分 类 器 


获取 最 终 的 语义 关系 。 


Bi-LSTM 


等 : 基于 登 层 循环 神经 网 络 的 语义 关系 分 类 模型 


在 序列 层 部 分 , 本 文采 用 标 ; 
Pa, 在: 时刻 ，LSTM 包含 了 一 个 输入 门 ;、 


如 下 : 
i =oWx, +0, +6) 
f = Wx, +UMh,, +b!) 
0, =o Wx, Uh, +b) 
u, = tanh" x, + Uh, +b") 
c =i Ou, +f, Oc 
h =0, © tanh(c,) 
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住 的 Bi-LSTM 对 序列 进行 编码 
sinh] fs 


个 输出 门 o,、 一 个 记忆 单元 6 ARAARA hai 


计算 公式 


a) 


其 中 :o 是 逐 元 素 的 sigmoid 函数 ，@ 是 逐 元 素 的 积 ，W 和 vw 是 


权重 和 矩阵， 是 偏 置 向 量 。 


SE PAUL SH 


< BE] son 


CRF 
SDP 

多 句法 融合 的 结构 SubTree 
FullTree 


对 于 一 个 包含 n 个 字 的 序列 (ae 


x) ， 每 个 字 都 用 


的 特征 向 量 来 表示 。 在 t 时 刻 , 对 
收 当 前 的 输入 向 量 为 x [n] 


d 维 
于 当前 的 第 t SF, LSTM 接 
Hl ZU AY RAS ha 和 细胞 状 


AS ca o FIA] SBT ABER AS h o 


于 在 这 里 使 用 的 是 Bi-LSTM， 


因此 对 于 每 个 字 在 前 向 和 后 向 均 获 得 了 一 个 隐 状 态 ， 分 别 是 斑 


和 大 ， 经 过 拼接 得 到 5, =| 太 , 罗 | ， 作 为 传 入 关系 


层 的 输入 之 一 。 


图 1 基于 H-RNN 的 关系 分 类 框架 


在 序列 


层 的 解码 阶段 ， 采 上 


标准 的 CRE 模型 对 来 


Fig.1 
框架 的 基本 阐述 


H-RNN based relation c 
2.1 


lassification framework 


本 文 提出 的 模型 框架 主要 由 三 


部 分 构成 ， 分 别 是 输入 序列 


的 词 向 量 表 示 、 序 列 层 的 实体 预 训 
构 。 


di 的 字 v,、 词 性 标签 1,、 


练 、 关 系 层 的 多 句法 融合 结 


名 


Attention 的 输出 向 量 进行 解码 , 标记 模式 为 BILOUR?7, 其 中 每 


个 实体 标签 包含 了 实体 类 型 和 实体 位 置信 息 。 如 图 


PER 和 L-PER 表示 Sidney Yates 
应 的 位 置 。 


2 所 示 ，B- 
是 一 个 PER 实体 类 型 以 及 相 


最 终 得 到 的 实体 标签 向 量 " 将 作为 关系 层 的 输入 之 


关于 模型 在 序列 层 的 Attention 部 分 以 及 关系 层 将 会 在 下 


词 向 量 包 含 维度 为 心 、 咱 、 
过 


法 标签 x, ， 均 为 经 过 预 训 练 的 embedding. 


文 分 开 


LAS ALIA « 


PHYS Softmax 
Cand-Relation Hidden layer 


was 


Chicago 


Input 


Sequence Layer 


r 了 YY 了 TYTTTT hdd 本 YY rr 


Lá 和 和 A A ， 


Li á á ila Slil ilalidlill 


Co-Embedding 


Relation Layer 


图 2 SEP BRE UIA EA 2 IR RP RRACA E SDP 结构 时 ) 


Fig.2 Semantic relation classification model via hierarchical recurrent neural network(when model choose SDP) 


2.2 Word-level Attention 


Bi-Tree-LSTM 图 


2 


ta 


, YY, 


a i 人 


pin 


序列 层 不 仅 药 涵 了 句子 上 的 实 


体 信 息 ， 同 时 包含 了 实体 的 


地 处 理 Bi-LSTM 所 产生 的 隐藏 向 量 "，, 从 而 获取 到 相应 的 权 习 


上 下 文 信息 以 及 部 分 非 相关 信息 。 


为 了 使 模型 能 够 更 好 的 预测 


实体 间 的 关系 ， 需 要 让 模型 在 这 一 层 上 更 多 的 聚焦 于 序列 上 最 


关键 的 信息 ， 也 就 是 实 
因此 ， 模 型 在 序列 


attention 机 制 。 


体 与 谓语 动作 这 两 类 主体 信息 。 


层 部 分 引入 了 一 种 字 级 别 (word-level) 的 


Attention 机 制 使 得 模型 能 够 治 着 文本 序列 逐 字 


分 配 ， 产 生 它们 的 加 权 表 示 "， 如 式 (2) 所 示 。 


z, = tanh(W™A,) 
T 
2 exp (v z) 
Dexp(z,) 
r= D a,h, 


其 中 : v; 是 权重 向 量 ， 


WO 是 权重 矩阵 ， 
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置 。 
2.3 关系 层 


关系 层 表示 句法 依赖 树 上 一 对 实体 对 之 间 的 候选 关系 ， 如 
图 1 的 右 部 分 所 示 。 已 有 的 实践 证 明 ， 不 同 的 句法 结构 对 于 关 
系 分 类 有 不 同 程度 的 效益 ， 但 目前 的 模型 基本 都 是 基于 特定 句 
法 结构 下 的 研究 。 因 此 ， 本 文 提出 将 三 种 不 同 的 句法 结构 进行 
加 权 融 为 一 体 ， 让 网 络 学 习 在 不 同 的 句法 结构 下 对 关系 进行 分 
类 。 


首先 ， 明 确 SDP、SubTree、FullTree 结构 的 定义 : 
a)SDP, 最 短路 径 是 指 最 近 公 共 节 点 和 两 个 实体 目标 词 之 间 
的 核心 依赖 路 径 ; 
b)SubTree, 子 树 是 包含 了 最 短路 径 以 及 最 近 公共 节点 下 的 
子 树 的 句法 结构 ; 

c)FullTree, 全 树 指 完整 的 句法 依赖 树 , 能 够 捕获 到 完整 句子 
的 上 下 文 信息 。 

本 文采 用 Bi-Tree-LSTM 获取 实体 对 之 间 的 候选 关系 ， 该 
络 结构 不 仅 能 够 充分 学 习 底部 叶子 节点 及 其 孩子 节点 的 信息 ， 
司 时 还 能 够 将 顶部 的 根 节点 信息 传递 到 底部 叶子 节点 ， 这 对 于 
络 充 分 学 习 句 法 结构 上 的 信息 是 有 益 的 。Miwa 等 2 的 模型 


| 


可 


a 
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在 完整 模型 的 解码 阶段 ， 基 于 组 合 的 思想 对 每 个 检测 到 的 
实体 的 最 后 一 个 字 进 行 组 合 以 获取 最 终 的 候选 关系 ， 即 在 
BILOU 模式 下 标记 为 M U 标签 的 字 。 在 图 1 示例 中 ， 对 
Yates(L-PER) 和 Chicago(U-LOC) 标 记 一 个 候选 关系 。 对 于 每 一 
个 输入 的 句子 ， 关 系 层 经 过 Bi-Tree-LSTM 获取 候选 关系 4, , 
经 过 包含 tanh 函数 的 隐 含 层 ， 最 终 通过 softmax 层 预 测 关 系 标 


关系 层 使 用 的 是 Bi-Tree-LSTM , 


因此 候选 关系 


dy = [Muhi], 


中 ,“ pw 代表 自 底 向 上 方向 的 顶部 单元 的 


Keer RAS Flt CAN, AWERI), “nis hh” REAM FA 
向 在 两 个 底部 叶子 节点 的 隐 含 层 状态 向 量 〈 即 ， 实 体 节 点 )。 在 
最 终 的 关系 预测 阶段 ， 模 型 通过 两 层 的 神经 网 络 预测 最 终 的 候 
选 关 系 ， 分 别 是 一 个 隐 含 层 如 和 softmax 层 ， 公 式 如 下 : 


T 


o ag pl) 
h = tanh (wa, +b") 


(4) 


P= softmax (Wh a, + p) 


2.4 模型 训练 
对 于 模型 的 训练 过 程 和 参数 设置 问题 。 在 序列 层 上 ， 采 用 


过 将 句法 结构 定义 为 两 种 类 型 ， 并 通过 一 个 映射 函数 来 处 理 


E 


标准 的 线性 链 CRF， 基 于 BILOU 模式 对 训练 集 进行 实体 预 训 


两 种 类 型 的 句法 结构 树 。 基于 此 , 本 文 提出 一 种 改进 的 Bi-Tree- 
LSTM, 通过 共享 权重 融合 三 种 句法 结构 信息 , 并 能 够 计算 不 同 
结构 下 节点 的 孩子 节点 数量 。 


i =o) Wx, + E pUh, +b” 
neC(t) seT 
= DE +¥ puh an) 
C(t) seT 
safer EB) E 
neC(t) seT 


seT 


u, = ou + >》 > pun, + “| 
neC(t) 


c =i Ou +f OC, 
h, =0, © tanh(c,) 


其 中 : D Dooh, 表示 对 句法 结构 进行 线性 加 权 的 学 习 ， 当 模 


型 学 习 到 不 同 的 句法 结构 时 ， 需 要 计算 该 字 * 在 相应 的 句法 结 
构 下 的 孩子 节点 数量 ，se7 表示 结构 :为 所 有 树 结构 7 下 的 一 
种 。 本 文 定 义 两 种 节点 类 型 ， 一 种 是 SDP 路 径 上 的 节点 ， 男 一 
种 是 SubTree 和 FullTree 上 除了 最 短路 径 之 外 的 其 他 所 有 节点 。 

于 实体 识别 与 语义 关系 分 类 是 联合 任务 ， 通 过 将 关系 层 
嵌 套 在 序列 层 之 上 ， 将 文本 序列 获取 的 有 效 信息 传递 到 关系 层 
上 ,进行 端 到 端的 训练 ,能 够 有 效 的 提升 完整 模型 的 训练 效果 。 


m 


关系 层 上 的 LSTM ATER t PERRA x =| s | 


( 即 图 2 右 部 分 中 的 Co-Embedding)， 分 别 为 该 字 在 序列 层 的 隐 
状态 向 量 s、 实 体 预 训练 获得 的 实体 标签 x0、 该 字 的 依赖 标签 


in} 


练 ， 将 得 到 的 标签 作为 关系 层 的 输入 之 一 。 在 关系 层 上 ， 本 文 
将 softmax 作为 分 类 器 ， 置 于 关系 层 的 隐 含 层 之 上 ， 接 收 来 自 隐 
含 层 的 句子 表示 hy 并 产生 该 句子 的 语义 关系 概率 分 布 上 (如 式 
(4) 所 示 )， 其 训练 目标 是 最 小 化 介 于 句子 的 预测 关系 与 实际 语 
义 关 系 之 间 的 交叉 米 ， 即 : 


nC ， A 
loss =-) > y,log (ya ) +5 lal 
k=1 i=l 


其 中 : yy RRIT k ATKI i ES, yu RANA k WWIK 
别 ; 的 概率 ，4 是 L2 正则 化 项 ，9 是 它 的 参数 ， 本 文 只 对 权重 
w Alu 进行 正则 化 。 

同时 为 了 防止 过 拟 合 ， 设 置 了 训练 提前 结 体 是 设 定 
一 个 数值 n=100, ZLE n 次 迭代 没有 达到 之 前 的 最 好 值 就 
可 以 提前 结束 训练 。 为 了 保证 网 络 训练 过 程 的 一 致 性 ， 对 长 度 
不 等 的 句子 进行 填充 。 模 型 训练 过 程 详细 的 参数 设置 在 3.2 节 
HP IA 


3 ”实验 结果 与 讨论 


实验 由 在 证 明 : a) 融 合 Word-level 的 Attention 机 制 能 够 有 
效 提升 模型 对 于 文本 序列 上 实体 信息 的 关注 度 ， 对 完整 模型 的 
分 类 效果 起 到 促进 作用 ; b) 多 种 句法 结构 的 加 权 学 习 能 提升 模 
型 的 鲁 棒 性 ， 保 证 模型 能 够 处 理 不 同 的 句法 结构 。 下 面 ， 首 先 
介绍 实验 数据 与 评价 指标 ， 实 验 设置 ， 然 后 分 别 测试 实验 和 结 
果 分 析 ， 最 后 与 其 他 方法 进行 对 比 。 
3.1 实验 数据 与 评价 指标 


u 


实验 采用 Semeval-2010 Task 8 作为 实验 数据 集 ， 该 数据 
集 是 评判 关系 分 类 任务 的 经 典 数 据 集 ， 共 包含 8000 条 训练 样 
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C 


本 和 2717 条 测试 样本 ， 关 系 类 别 包括 9 种 语义 关系 以 及 Other 
关系 〈 即 实体 对 之 间 不 存在 关系 )， 有 具体 语义 关系 -样本 分 布 如 
表 1 所 示 。 


表 1 SemEval2010 Task8 语义 关系 -样本 分 布 


Table 1 Semantic relation-sample distribution of SemEval 2010 Task8 
关系 类 型 训练 集 测试 集 
Other 1410 454 
Cause-Effect 1003 328 
Component-Whole 941 312 
Entity-Destination 845 292 
Entity-Origin 716 258 
Product-Producer 71 231 
Member-Collection 690 233 
Message-Topic 634 261 
Content-Container 540 192 
Instrument-Agency 504 156 
合计 8000 2717 


实验 采用 marco-F1 作为 评价 指标 ， 该 计算 依赖 于 正确 率 
(precision) fi H EX (recall), HARUT: 


i True Positive + True Negative 
Precision = 


Positive + Negative 


Recall = True Positive (5) 


Positive 


Fl= 2* precision * recall 
precision + recall 


其 中 : True Positive + True Negative 表示 输出 的 判断 正确 的 关系 个 数 ; 
Positive + Negative 表示 输出 的 所 有 的 关系 个 数 ; True Positive 表示 
在 输出 判断 正确 的 关系 中 ， 属 于 Positive 类 别 中 的 关系 个 数 ， 
Positive 表示 所 有 关系 中 正确 类 别 的 关系 个 数 。 
3.2 ”实验 设置 

词 向 量 采 用 由 Glove2vec 对 英文 维基 百科 预 训练 的 词 向 量 
进行 初始 化 ， 维 度 为 200; 采用 Stanford Dependency Parser 对 

隐 含 
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的 基准 模型 的 序列 层 上 ， 实 体 预 训练 的 解码 方式 是 基于 单 向 的 
贪心 解码 , 通过 将 其 替换 成 CRF, 能 够 捕获 双向 的 上 下 文 信息 ， 
从 而 学 习 到 更 充分 的 信息 。 另 一 方面 ,尽管 替换 为 CRF 解码 方 
式 ， 但 模型 的 分 类 效果 并 没有 显著 提升 ， 分 析 原 因 可 能 是 对 于 
实体 信息 的 学 习 不 够 充分 。 通 过 添加 word-level 的 attention 机 
制 提高 了 模型 的 分 类 效果 ， 其 原因 在 于 提高 了 模型 对 于 文本 序 
列 上 实体 信息 的 关注 度 ， 让 模型 更 好 的 学 习 到 实体 信息 。 该 实 
验 说 明 , 使 用 CRF 和 attention 机 制 能 够 有 效 提升 模型 在 实体 预 
训练 的 效果 。 

表 2 改进 序列 层 的 实验 结果 (未 添加 额外 的 先 验 知识 ) 


Table 2 Experimental results of improved sequence layer(without extra 


prior knowledge) 


方法 Marco-F1(%) 
Baseline (SDP) 84.4 
+CRF 84.5 
+CRF, +ATTENTION 84.9 


3.3.2 融合 多 句法 结构 
在 第 二 组 实验 中 ,保持 文献 2 进行 实体 预 训练 的 序列 层 不 
变 ,通过 将 基准 模型 的 依赖 层 蔡 换 成 融合 多 句法 结构 的 关系 层 ， 
实验 结果 如 表 3 所 示 。 
#3 融合 多 句法 结构 的 实验 结果 (添加 了 额外 的 先 验 知识 ， 
WordNet) 


Table3 Experimental results of multi-syntactic structure(with extra prior 


knowledge, WordNet) 


Baseline 多 句法 结构 
SDP 85.1 85.3 
SubTree 83.9 84.0 
FullTree 82.9 83.0 


H 


基准 模型 的 句法 结构 采用 映射 函数 来 选择 使 用 何 种 句法 结 
构 ， 而 本 文 的 模型 通过 融合 多 种 句法 结构 为 一 体 ， 其 目的 在 于 
提升 模型 的 鲁 棒 性 ， 使 得 模型 能 够 直接 处 理 不 同 的 句法 结构 。 


句子 进行 句法 依赖 解析 。 模 型 的 激活 函数 选用 tanh pa, 


层 节 点 数 为 200， 采 用 softmax 作为 本 文 的 分 类 器 ， 对 权重 W 和 
U 采取 L2 正则 化 。 为 防止 过 拟 合 ， 在 训练 过 程 中 分 别 对 序列 
慨 和 关系 层 引 入 dropout 策略 ，dropout 值 取 0.3。 另 外 ， 采 用 批 
量 的 Adam 和 梯度 剪裁 用 于 模型 训练 更 新 权重 参数 ， 批 量 大 小 
取 1, 训练 轮 数 取 100。 对 于 其 他 参数 , 均 采用 随机 初始 化 处 理 。 
3.3 ”实验 结果 与 分 析 

本 文 实验 以 文献 [21] 中 的 结果 为 基准 ， 该 方法 在 未 添加 额 
外 的 先 验 知识 WordNet 时 ， 能 够 达到 的 分 类 效果 为 84.4%。 
3.3.1 序列 层 的 改进 

本 文 在 第 一 组 实验 中 ， 基 于 文献 P11 的 方法 ， 通 过 改进 该 模 
型 的 序列 层 ,分 别 是 使 用 了 不 同 的 解码 方式 以 及 添加 word-level 
的 Attention 机 制 ， 得 到 实验 结果 如 表 2 所 示 。 
实验 结果 可 知 , 将 解码 方式 改进 为 CRF 并 添加 Attention 
机 制 ， 提 高 了 基准 模型 最 终 的 分 类 效果 。 其 原因 在 于 ， 在 原先 


pssi 


实验 结果 可 知 ， 本 文 提 出 的 融合 多 句法 结构 的 模型 ， 对 于 不 
同 的 句法 结构 都 有 着 稳定 可 靠 的 表现 ， 其 结果 较 基 准 模 型 有 所 
提升 ， 具备 良好 的 鲁 棒 性 。 
进一步 地 ,由 第 一 组 实验 已 知 , 通过 使 用 CRF 解码 并 添加 
Attention 机 制 的 方式 ， 能 够 提升 序列 层 的 实体 训练 效果 ， 这 对 
于 模型 进一步 分 类 起 到 了 促进 作用 。 因 此 ， 通 过 将 两 组 实验 进 
行 结合 ， 即 将 改进 的 序列 层 与 多 句法 融合 的 结构 车 层 幅 套 ， 对 
完整 模型 进行 端 到 端的 训练 ， 实 验 结果 如 表 4 所 示 。 

在 第 三 组 实验 中 ， 本 文 提出 的 H-RNN 模型 要 优 于 添加 了 
额外 先 验 知识 的 基准 模型 和 基于 序列 的 模型 。 其 原因 可 能 是 : 
a) 实体 识别 与 关系 分 类 是 互相 关联 的 任务 , 序列 层 的 改进 ， 提 
升 了 实体 预 训练 的 效果 ， 对 于 训练 端 到 端的 完整 模型 起 到 了 促 
进 作 用 ， 从 而 提升 了 分 类 效果 ; b) 文本 序列 和 句法 结构 都 蕴含 
了 不 同 的 信息 成 分 ， 基 于 序列 的 模型 在 信息 量 上 过 于 单一 ， 通 
过 将 结构 化 的 信息 引入 到 文本 序列 上 ， 能 够 丰富 模型 的 分 类 能 


l ChinaXiv 合 
录用 定稿 HEE, Fi 基于 熏 层 循环 神经 网 络 的 语义 关系 分 类 模型 第 3 


JJ; c) 同时 ,进一步 证 明了 ，SDP 在 序列 的 关系 分 类 问题 上 优 一起， 输入 分 类 器 softmax 中 进行 预测 。 
于 SubTree 和 FullTree。 因 为 SDP 在 结构 上 要 更 直观 简洁 ， 其 c)SDP-LSTM!"), 将 最 短路 径 的 形式 与 网 络 进行 结合 , 同时 
他 两 种 结构 部 分 多 余 的 节点 信息 会 引入 一 些 见 余 ， 可 能 会 导致 ”通过 四 个 通道 融合 了 不 同 的 异 构 信 息 。 
训练 过 程 对 重要 信息 的 学 习 造成 干扰 。 d)BLSTM2?5!, RH NLP 工具 和 词法 资源 衍生 出 的 众多 特 
表 4 改进 的 序列 层 + 融 合 多 句法 结构 的 实验 结果 添加 了 额外 的 先 验 征 与 双向 LSTM 网 络 学 习 句 子 级 别 的 特征 。 
知识 ，WordNet) e]Att-BLSTMI[。 提 出 了 一 种 将 注意 力 融 合 进 双 向 循环 神 
Table 4 Experimental results of improved sequence layer & multi- 经 网 络 的 网 络 结构 ， 提 高 了 分 类 器 对 关键 信息 的 注意 力 。 
syntactic structure(with extra prior knowledge, WordNet) f)2ATT-BLSTM-BLSTM™ 1, 提出 了 一 种 融合 注意 力 机 制 的 
多 句法 结构 合 层 的 双向 循环 神经 网 络 模 型 。 
SDP 85.9 g)BLSTM-BTLSTME0。 提 出 了 一 种 将 实体 识别 与 关系 分 
SubTree 84.7 类 拼接 在 一 起 的 端 到 端的 神经 网 络 模型 ， 其 中 实体 识别 用 Bi- 
FullTree 83.6 LSTM 来 表示 ， 关 系 分 类 用 Bi-Tree-LSTM 来 表示 。 
SDP(baseline) 85.1 WR 5 所 示 ， 相 对 于 其 他 模型 ， 在 更 少 的 额外 的 特征 信息 
SPSeq 84.4 的 情况 下 ，H-RNN 的 结果 达到 了 目前 最 优 效果 。 
SPXu E 84.7 4 结 束 语 
RS H-RNN 与 其 他 方法 进行 对 比 
Table 5 Comparison between H-RNN with other methods 本 文 针 对 现 有 基于 特定 句法 结构 的 关系 分 类 模型 无 法 迁移 
模型 添加 的 特征 Marco-F1/% 到 其 他 句法 结构 上 的 问题 ， 提 出 了 一 种 融合 多 句法 结构 的 邯 层 
POS, WordNet, prefixes and other 循环 神经 网 络 模 型 。 该 模型 通过 利用 Bi-LSTM-CRF (融合 
morphological features, dependency parse, attention) 和 Bi-Tree-LSTM 来 表示 文本 序列 和 句法 结构 ， 将 实 
SVM Levin classes, PropBank, FanmeNet, 82.2 体 预 训练 和 关系 分 类 融合 到 端 到 端的 框架 中 利用 共享 参数 进行 
NomLex-Plus, Google n-gram, paraphrases, 训练 ， 在 实体 预 训练 阶段 融合 attention 机 制 提 升 对 实体 的 关注 
TextRunner 度 ， 同 时 对 多 种 句法 结构 进行 加 权 学 习 。 
position features, words around nominals, 在 Semeval-2010 Task8 数据 集 上 实验 证 明 ， 1) 多 句法 结构 
ne WordNet a 的 网 络 模型 能 够 对 不 同 句法 结构 的 关系 进行 有 效 分 类 ， 具 备 
POS embeddings, WordNet embeddings, 定 的 鲁 棒 性 。 同 时 ， 进 一 步 证 明了 SDP 结构 (相对 于 其 他 结构 ) 
ee E T T oo 对 于 关系 分 类 是 最 有 效 的 。 习 通过 构造 端 到 端的 模型 ， 在 实体 
POS, NER, WordNet, position features, 预 训练 阶段 利用 attention 机 制 提升 模型 对 实体 的 关注 度 ， 利 用 
BLSTM dependency feature, relative-dependency ee 共享 参数 的 学 习 方 式 ， 有 效 提升 了 模型 的 分 类 精度 。 
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